Evaluation supervisée de métrique : application à la préparation de données séquentielles

نویسندگان

  • Sylvain Ferrandiz
  • Marc Boullé
چکیده

Résumé. De nos jours, le statisticien n’a plus nécessairement le contrôle sur la récolte des données. Le besoin d’une analyse statistique vient dans un second temps, une fois les données récoltées. Par conséquent, un travail est à fournir lors de la phase de préparation des données afin de passer d’une représentation informatique à une représentation statistique adaptée au problème considéré. Dans cet article, nous étudions un procédé de sélection d’une bonne représentation en nous basant sur des travaux antérieurs. Nous proposons un protocole d’évaluation de la pertinence d’une représentation par l’intermédiaire d’une métrique, dans le cas de la classification supervisée. Ce protocole exploite une méthode de classification non paramétrique régularisée, garantissant l’automaticité et la fiabilité de l’évaluation. Nous illustrons le fonctionnement et les apports de ce protocole par un problème réel de préparation de données de consommation téléphonique. Nous montrons également la fiabilité et l’interprétabilité des décisions qui en résultent.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles. (Supervised learning from sequential data)

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Classification probabiliste non supervisée et visualisation des données séquentielles

Résumé. Nous proposons dans ce papier un nouvel algorithme de classification non supervisée à base de modèle de mélange topologique pour des données non i.i.d (non independently and identically distributed). Ce nouveau paradigme probabiliste, plonge les cartes topologiques probabilistes dans une formulation sous forme de chaînes de Markov cachées. Dans cette formulation, la génération d’une obs...

متن کامل

Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité

Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...

متن کامل

Khiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données

Résumé. Khiops est un outil de préparation des données et de modélisation pour l’apprentissage supervisé et non supervisé. L’outil permet d’évaluer de façon non paramétrique la corrélation entre tous types de variables dans le cas non supervisé et l’importance prédictive des variables et paires de variables dans le cas de la classification supervisée. Ces évaluations sont effectuées au moyen de...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007